te reo m \ = aori(称为m \ = aori),新西兰的土著语言在语言技术中的资源不足。 m \ = aori扬声器是双语的,其中m \ = aori用英语进行了代码开关。不幸的是,M \ = AORI语言技术,语言检测和M \ = Aori-English对之间的代码转换检测的资源最少。英语和M \ = AORI都使用罗马衍生的拼字法制作基于规则的系统来检测语言和代码转换限制性。大多数M \ = AORI语言检测是由语言专家手动完成的。这项研究构建了66,016,807个单词的Aori英语双语数据库,并带有单词级语言注释。新西兰议会汉萨德辩论报告用于构建数据库。语言标签是使用特定语言规则和专家手册注释分配的。 M \ = AORI和英语的单词具有相同的拼写,但含义不同。这些词不能根据单词级的语言规则将其归类为M \ = AORI或英语。因此,需要手动注释。还报道了报告数据库的各个方面的分析,例如元数据,逐年分析,经常出现的单词,句子长度和n-grams。这里开发的数据库是新西兰Aotearoa的未来语言和语音技术开发的宝贵工具。遵循标签数据库的方法也可以遵循其他低资源的语言对。
translated by 谷歌翻译
多标签学习在考虑标签相关的同时,从给定标签设置的标签中的一个子集。具有多标签分类的已知挑战是标签的长尾分布。许多研究侧重于改善模型的整体预测,从而不优先考虑尾端标签。改善医学文本的多标签分类中的尾端标签预测使得能够更好地了解患者并改善护理。一个或多个不频繁标签所获得的知识可能会影响医学决策和治疗计划的原因。本研究介绍了包括多生物传感器的级联特定语言模型的变化,以实现两个主要目标。首先,在多标签问题上改善F1罕见标签,特别是长尾标签;其次,要处理长医疗文本和多源电子健康记录(EHRS),对于旨在在短输入序列上工作的标准变压器的具有挑战性的任务。本研究的重要贡献是使用变换器XL获得的新的最先进的(SOTA)结果,以预测医学代码。在医疗信息MART进行各种实验,用于重症监护(MIMIC-III)数据库。结果表明,连接的生物化变压器在整体微观和宏F1分数和尾端标签的单独F1分数方面优于标准变压器,而不是对长输入序列的现有变压器的解决方案产生较低的训练时间。
translated by 谷歌翻译